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摘要 : ” 随 着 高 性 能 计算 体系 结构 的 发 展 ,软件 与 硬件 都 具有 了 多 层 的 并 行 结 构 。 当 不 同 纵 
向 层级 与 横向 分 组 的 计算 任务 被 划分 到 不 同 节点 的 不 同 处 理 器 时 , 具有 非常 多 的 分 配对 应 方 
式 。 用 户 越 来 越 难 以 获取 最 佳 的 计算 并 行 参 数 与 硬件 资源 使 用 量 。 我 们 研究 了 一 种 优化 方法 ， 
可 以 帮助 用 户 自动 化 的 确定 最 佳 的 应 用 并 行 参数 与 硬件 使 用 量 , 使 其 可 以 高 效率 地 扩展 到 大 
规模 计算 。 此 外 ， 我 们 提出 了 一 种 将 该 优化 方法 与 作业 调度 系统 深度 融合 的 方案 ， 并 获得 了 
很 好 的 应 用 效果 。 
关键 词 ， 高 性 能 计算 计算 机 集群 ”作业 调度 ”运行 时 优化 
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Abstract: With the development of high-performance computing architectures, many 
software and hardware have a multi~layer parallel structure. A large amount of 
allocation schemes can be involved when users allocate multi-~layered system 
resources to many computational tasks distributed in different vertical tiers and 
horizontal groupings. It is becoming increasingly difficult for users to determine 
the optimal parallel parameters and hardware resource usage. We investigate an 
optimization method which is helpful for users to automate the determination of the 


optimal application parallel parameters and hardware usage for high-efficient 


and/or large-scale computation. In addition, we propose a solution that deeply 


integrates the optimization method with the job scheduling system, which has 


produced excellent practical results 
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1 引言 


以 科学 计算 为 目标 ， 回 顾 计算 硬件 的 结构 发 展 ， 从 CPU 的 同 构 多 核 处 理 器 
(SMP) 构架 到 具有 NUMA 分 区 的 异 构 方 式 ; 从 单 节点 内 的 多 路 处 理 器 胖 节 点 到 大 
规模 的 集群 节点 。 可 知 ， 计 算 设备 具有 越 来 越 多 的 并 行 层 级 ， 形 成 了 越 来 越 成 熟 
的 高 性 能 计算 设备 。 相 应 的 ， 一 般 的 科学 计算 程序 ， 也 会 从 简单 的 支持 OpenMP 
并 行 发 展 到 支持 MPI 并 行 ， 或 者 两 者 结合 起 来 。 特 别 是 ， 近 年 来 GPU 异 构 设备 
及 其 上 的 应 用 开发 也 越 来 越 完 善 。 因 此 ， 可 以 观察 到 一 个 现象 ， 软 硬件 在 演进 与 
成 熟化 的 过 程 中 变 得 越 来 越 复杂 ， 有 具有 越 来 越 多 的 并 行 层级 与 分 组 结构 。 

当 不 同 纵向 层级 与 横向 分 组 的 计算 任务 划分 到 不 同 分 组 的 节点 与 处 理 器 时 ， 
面临 着 巨大 的 可 调 空间 。 不 同 的 分 配方 式 可 以 导致 明显 不 同 的 计算 速度 , 也 需要 
不 同 的 计算 资源 。 因 为 最 佳 的 计算 速度 依赖 于 计算 硬件 也 依赖 于 需要 计算 的 目标 
问题 ,因此 程序 难以 自动 的 预 估 处 理 这 个 分 配 模型 ， 导 致 一 些 参数 是 必须 通过 试 
运行 来 完成 速度 评估 。 例 如 ， 在 利用 FFTW 软件 库 执 行 FFT 计算 前 ， 库 函数 需要 
开发 者 指定 FFT Plan， 并 可 根据 不 同 的 硬件 与 数组 大 小 选择 不 同 的 FFT 计算 方 
法 与 参数 。 虽然 有 一 些 研究 工作 致力 于 预测 其 中 的 最 佳 性 能 ， 并 发 展 自 动 化 的 调 
优 方法 [1-2], 但 在 很 多 场景 下 , 程序 仍然 使 用 FFTW_MEASURE 甚至 FFTW_PATIENT 
来 实时 的 测试 不 同方 法 与 参数 的 运行 性 能 , 使 得 程序 在 更 长 更 大 规模 的 运行 算 例 
下 具有 更 好 的 效率 。 

在 复杂 的 应 用 程序 整体 计算 场景 下 ， 应 用 功能 越 丰富 ， 其 计算 目标 对 象 就 越 
繁多 ， 预 估 最 优 参数 的 方法 就 越发 失效 。 特 别 是 ,即便 解 决 了 在 程序 内 部 自动 优 
化 并 行 参数 的 问题 ,也 无 法 解决 使 用 计算 资源 数量 的 配置 问题 , 因为 在 计算 开始 
前 ， 这 个 计算 资源 数量 必然 是 由 用 户 或 调度 系统 来 提供 的 ， 而 无 法 通过 程序 内 部 
的 参数 来 调整 。 因 此, 多 数 应 用 允许 用 户 自己 根据 计算 目标 与 硬件 资源 来 调整 设 
置 这 个 任务 划分 方法 与 参数 。 这 些 参 数 一 般 在 程序 计算 开始 前 在 输入 文件 中 给 
出 ， 后 面 我 们 称 之 为 应 用 并 行 参 数 ， 其 仅 影 响 计 算 任务 的 分 组 策略 ， 原 则 上 可 以 
由 用 户 或 调度 系统 进行 调整 ， 且 不 对 程序 的 计算 结果 造成 影响 。 

以 科学 计算 领域 中 使 用 最 广泛 的 VASP 应 用 为 例 ， 在 我 们 过 去 的 工作 中 本 文 
中 ,尝试 了 通过 输入 参数 结合 历史 运行 数据 来 判断 当前 目标 作业 的 计算 时 间 ， 取 
得 了 一 定 的 效果 [3], 但 是 其 精确 度 仍然 有 所 不 足 , 特别 是 VASP 的 总 时 间 预 测 需 
要 考虑 到 计算 迭代 的 步 数 的 影响 ,而 不 与 单个 迭代 计算 的 速度 直接 相关 ， 因此 难 
以 应 用 于 运行 速度 与 扩展 性 优化 。 本 文中 , 通过 设计 一 种 针对 不 同 硬件 资源 使 用 
量 与 并 行 参数 的 优化 方法 , 我 们 为 用 户 提供 了 全 面 优化 的 运行 参数 。 区 别 于 常见 
的 其 他 运行 时 优化 工作 , 我 们 不 仅 为 应 用 提供 优化 的 输入 并 行 参 数 数值 ， 且 优化 
应 用 的 运行 扩展 性 ， 提 供 最 佳 的 并 行规 模 ， 以 及 相应 需要 设置 的 资源 申请 数 。 

本 文 组 织 如 下 :首先 在 第 一 节 中 ， 结 合 VASP 应 用 ， 介 绍 其 并 行 逻 辑 、 问 题 背 
景 以 及 部 分 空间 遍历 测试 。 在 第 二 节 ， 我 们 给 出 本 文 的 优化 方法 与 优化 指标 。 在 
第 三 节 ， 本 文 结合 几 个 测试 实例 ， 展 示 优 化 效果 。 第 四 节 中 ， 我 们 给 出 与 作业 调 
度 系统 结合 的 方法 ， 并 展示 已 有 的 部 分 结果 。 最 后 ， 给 出 总 结 。 


2 VASP 应 用 并 行 模式 与 背景 结果 


本 节 中 , 我 们 给 出 VASP 应 用 的 基础 并 行 模 式 , 可 以 调节 而 不 影响 计算 结果 的 
并 行 参数 ， 以 及 探索 是 否 可 以 给 出 确定 性 经 验 模 型 的 背景 测试 结果 。 
2.1 VASP 应 用 并 行 模式 


VASP 是 超 算 行业 占用 机 时 数 最 多 的 应 用 , 对 该 软件 的 高 效 使 用 可 以 明显 的 
提升 超 算 集群 的 利用 效率 与 用 户 工作 产 出 。 图 1 展示 了 VASP 应 用 的 任务 并 行 划 
分 的 基本 模式 , 表达 了 其 三 层 并 行 下 的 任务 与 CPU Core 的 对 应 关系 。 可 知 ，KPAR 
表达 了 同时 运行 的 KPoint 任务 个 数 ，NPAR 表达 了 同时 计算 的 Band 任务 个 数 ， 
NCORE 表达 了 单个 Band 任务 所 使 用 的 CPU Core 核心 数 。 因 此 ， 总 的 计算 核心 数 
为 三 个 参数 的 乘积 : KAPR x NPAR x NCORE， 后 续 需 要 优化 的 并 行 参数 也 选择 这 
三 者 ， 他 们 既 决 定 了 基本 的 并 行 任务 划分 方式 ， 也 决定 了 总 的 计算 资源 数 。 
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图 1 VASP 应 用 同时 运行 任务 的 并 行 划 分 模式 
Figure 1 Parallel division pattern of tasks running simultaneously in a VASP calculation 


2.2 背景 测试 结 


在 介绍 新 的 并 行 参数 自动 优化 方法 之 前 ， 我 们 首先 介绍 过 去 一 些 测试 得 到 

的 经 验 结论 [4 。 在 这 里 引用 的 文档 [4 中 , 我 们 测试 了 6 种 硬件 平台 下 的 5 种 不 

同类 型 的 计算 算 例 。 

测试 结果 表明 ， 一 些 常 用 的 设置 参数 ， 包 括 VASP 官方 文档 中 的 设置 建议 ， 

在 一 些 计 算 场 景 下 明显 偏离 最 优 值 。 例 如 ，NPAR = 4 ”approx. SQRT (number of 

cores) 在 小 体系 多 K 点 以 及 大 尺度 单 K 点 算 例 下 明显 不 适合 ; 建议 “不 建议 设 
置 KPAR > Computer Nodes” 在 小 体系 多 点 下 明显 不 合适 等 等 。 

此 外 ， 我 们 发 现 ， 在 总 计算 核心 数 保 持 基 本 不 变 的 前 提 下 ，NCORE 的 最 优 

取 值 空间 相对 NPAR 的 最 优 取 值 空间 更 加 小 ， 且 单 节点 核心 数 应 该 可 被 NCORE 整 

除 为 最 优 。 结 合 图 1， 这 可 以 理解 为 ， 这 个 约束 可 以 保证 最 小 的 并 行 计 算 资 源 组 

CNCORE 个 CPU Cores) 可 以 在 相同 的 节点 内 完成 被 分 配 的 计算 任务 ， 因 此 可 以 

大 大 减少 节点 间 的 通讯 。 测 试 表 明 将 在 一 个 28 核心 的 节点 上 做 计算 时 , 将 NCORE 

从 8 修改 为 7， 可 以 使 得 MPI 通信 耗 时 由 199 秒 降 为 131 秒 ， 显 著 提升 了 并 行 计 


[Tm 


如 University of Delaware 的 Geun Ho Gu 所 言 : “I have found that this 
instruction does not always hold up, and, really, this parameter ls heavily dependent 
on the batch server / node configuration. So, it is wise to do your own test to optimize 
this parameter (and other parameters as well).”， 其 建议 用 户 根 据 计 算 环境 独立 测 
试 竺 计算 算 例 的 运行 并 行 参数 。 以 上 测试 除了 使 我 们 对 NCORE 我 们 有 了 一 些 明 
确 的 限制 ,缩小 了 最 优 空间 , 并 不 会 为 应 用 并 行 参数 优化 带 来 确定 性 的 经 验 模 

以 上 有 关 NCORE 的 经 验 特征 也 提示 ， 针 对 有 具体 应 用 ， 寻 找 其 最 小 并 行 任 
务 组 ， 并 根据 整除 规则 (节点 核心 数 ) 限制 其 取 值 空间 ， 可 以 大 大 缩小 需要 优化 
的 并 行 参数 空间 。 我 们 基于 此 ， 在 缩小 的 参数 空间 中 进行 了 一 个 遍历 测试 ， 结果 
如 图 2 中 所 示 。 


霸 


小 规模 Ni5601H2 算 例 下 的 VASP 运行 优化 


2000 一 -默认 配置 
只 优化 KPAR 
一 只 优化 NCORE 
vy 
E 00 ——KPAR=48&NCORE=4 
F mm 
D 
O 
© 
ll 
20 
2 
40 80 160 320 640 1280 
进程 数 


图 2 在 根据 经 验 缩小 的 空间 中 进行 的 参数 遍历 测试 总 结 


Figure 2 Summary of parameter tests in an empirically reduced space 


该 算 例 具有 59 个 原子 ， 且 只 有 8 个 约 化 的 K 点 个 数 ， 属 于 一 个 较 小 的 计算 
体系 。 因 为 遍历 测试 得 到 的 数据 结果 很 多 ， 本 文 仅 展示 了 其 中 的 代表 性 数据 。 根 
据 遍 历 测 斌 结果， 我 们 分 别 画 出 了 5 种 配置 或 配置 优化 下 的 计算 时 间 。 

可 以 看 到 ， 默 认 配置 下 ， 计 算 时 间 很 长 ， 且 在 100 进程 数 下 具有 最 佳 运行 速 
度 ; 分 别 只 优化 NCORE 与 KPAR 时 的 速度 有 所 提升 ， 但 最 佳 计算 时 间 依 然 在 
30-80 秒 左右 ， 且 在 600 进程 数 下 达到 并 行 扩展 瓶颈 ;， 在 使 用 一 些 经 验 较 丰富 的 
用 户 所 经 党 使 用 的 经 验 值 时 ， 计 算 效 果 与 前 类 似 ; 当 在 全 空间 寻求 最 佳 值 时 ， 我 
们 看 到 ， 对 于 该 小 体系 计算 ，VASP 可 以 比较 高 效 的 扩展 到 1280 个 核心 ， 最 佳 
计算 时 间 小 至 8 秒 。 最 佳 计 算 时 间 相 比 默 认 配 置 提升 了 约 1000 倍 。 

该 遍历 测试 表明 ， 某 些 计算 算 例 的 并 行 扩 展 效率 测试 显著 依赖 于 是 否 进 行 过 
并 行 参数 优化 ,获取 一 个 具有 复杂 并 行 结构 的 计算 的 真实 并 行 扩 展 能 力 ， 并 不 是 
一 个 简单 的 测试 任务 。 特 别 需 要 小 心 操 作 的 是 , 将 具有 不 同 并 行 参数 优化 程度 的 
两 个 计算 测试 进行 比较 ， 并 没有 真实 的 意义 。 


3 ”优化 方法 

本 文 所 述 的 优化 方法 中 ， 最 关键 的 是 ， 提 出 了 一 种 在 两 个 不 同 运行 配置 使 
用 不 同 数量 的 硬件 资源 的 情况 下 判断 两 者 优 劣 的 量化 指标 。 基 于 该 指标 ,我 们 设 
计 了 一 种 兼顾 效率 与 速度 需求 的 优化 步骤 。 


3.1 的 化 并 行 效率 指标 


我 们 将 对 比 两 个 并 行 参 数 配 置 Casel 与 Case2 的 优 劣 的 判定 标准 定 为 : 
1) 当 两 个 不 同 的 作业 参数 配置 的 运行 成 本 相等 时 ， 取 计算 时 间 最 短 者 为 
最 优 ; 


2) 当 两 个 不 同 的 作业 参数 配置 的 运行 成 本 不 同时 ， 基 于 约 化 并 行 效率 指 
标 Er 值 的 高 低 来 判断 

其 中 ， 约 化 并 行 效率 Er 表示 为 : 

已 . = 网 = (1/ECost)!ogEcosespeedup 
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其 中 设 定 ， 该 计算 算 例 采用 Casel 时 的 运行 资源 数 少 于 采用 Case2 时 的 运 
行 资源 数 ，R1 为 Casel 对 应 的 运行 资源 数 ，R2 为 Case2 对 应 的 运行 资源 数 ，T1 
人 对 应 的 作业 计算 时 长 ，T2 为 Case2 对 应 的 作业 计算 时 长 。 所 述 运行 资 
源 数 即 为 运行 成 本 ， 一 般 可 以 以 硬件 成 本 来 代 蔡 。 
特别 的 ， 当 nm 取 2 时 ， 约 化 并 行 效率 即 为 硬件 成 本 〈 计 算 使 用 核心 数 ) 
增 大 为 2 倍 时 的 相应 并 行 效 率 。 作 为 对 比 ， 并行 效率 指标 难以 在 使 用 计算 资源 数 
不 同 的 场景 下 ， 兼 顾 速度 与 资源 利用 效率 的 要 求 。 例 如 ， 当 比较 两 个 扩展 实例 : 
使 用 4 倍 CPU 核心 且 并 行 效 率 为 64% 与 使 用 2 倍 CPU 核心 且 并 行 效 率 为 64%， 显 
然 具 有 不 同 的 硬件 资源 利用 效率 ， 但 却 具 有 相同 的 并 行 效率 值 。 约 化 并 行 效率 
公式 中 ， 不 仅 包含 了 SpeedUp， 还 包括 了 ECost， 表 明 其 不 仅 考 虑 了 两 个 配置 
的 速度 差异 , 同时 考虑 了 两 者 之 间 的 资源 成 本 使 用 差异 , 两 者 共同 决定 了 两 个 参 
数 配置 的 优 劣 。 


3.2 优化 步骤 


为 了 公平 的 进行 扩展 效率 对 比 ， 或 者 是 为 用 户 提供 优化 的 计算 速度 与 计算 
资源 规模 ， 我 们 需要 简单 的 获取 最 佳 应 用 并 行 参数 的 方法 。 

我 们 总 结 优化 方法 为 如 下 步骤 : 

a) 试 运行 一 次 VASP 计算 ， 在 其 完成 初始 化 后 即 停 止 运行 。 

b) 根据 输出 的 约 化 K 点 数 来 确定 KPAR 参数 的 取 值 空间 ， 其 为 约 化 kK 点 数 
的 因子 。 

c) 根据 输出 的 NBANDS 数 来 确定 NPAR 的 参数 取 值 列表 ， 后 者 同样 为 前 者 
的 因子 。 

d) 根据 单 节点 总 核心 数 来 确定 NCORE 参数 的 取 值 列表 ， 后 者 为 前 者 的 因 
子 或 倍数 。 


e) 根据 算 例 规模 ， 为 KPAR、NPAR、NCORE 猜测 一 个 初始 值 。 

f) 以 初始 值 为 起 点 ， 按 列表 分 别 增加 三 个 参数 的 取 值 ， 根 据 一 个 优 劣 标 
准 来 判定 较 优 的 并 行 参数 ， 确 定 最 佳 的 扩展 路 径 。 

g) 当 所 有 参数 对 应 的 效率 指标 不 再 高 于 预先 设 定 的 效率 边界 时 ， 停 止 参 
数 优 化 与 并 行 扩展 测试 。 

以 上 步骤 中 ， 最 关键 的 是 选择 合适 的 优 劣 标准 与 效率 指标 ， 在 本 文中 ， 我 
们 介绍 一 种 约 化 并 行 效率 指标 , 可 以 更 好 的 解决 在 使 用 不 同 硬件 资源 数 的 情况 下 
判断 两 个 并 行 参数 设置 的 优 劣 。 


4 计算 并 行 参数 与 扩展 性 优化 效果 


本 节 中 ， 分 别 展示 三 个 计算 算 例 下 ， 针 对 计算 并 行 参数 与 扩展 性 分 别 进行 优 
化 后 的 效果 。 以 下 结果 基于 VASP6. 3. 3 版 本 , 并 且 在 5. 4 版 本 下 也 具有 相同 效果 。 


4.1 算 例 1 优 化 结 


表 1 Ni5601H2 体系 下 的 运行 参数 优化 结果 
Tablel Optimization results for NiS60O1H2 calculation 


Processes Parameter: Zr Loop + Time 
Number KPAR*¥NPARXNCORE (s) 
80 ll* 80*1 514 
160 2*8* 10 一 63 
320 2*8* 20 88% 36 
320 4*8* 10 98% 32 
640 4* 16* 10 94% ] 了 
640 4*8* 20 84% 19 
640 8* 8*¥ 10 107% 15 
1280 8* 16* 10 94% 8 


表 1 展示 了 Ni5601H2 体系 下 的 运行 参数 优化 结果 ， 表 中 第 一 行 数据 为 用 户 

的 默认 设置 ， 后 续 几 行为 优化 停止 前 的 测试 路 径 及 相关 结果 。 最 后 一 列 Loop+ 
Time 表示 预定 的 多 个 迭代 计算 的 总 时 间 。 
该 算 例 与 本 文 第 一 节 中 的 遍历 测试 算 例 相同 ,与 前 述 遍历 测试 相 比 ， 本 节 使 用 的 
优化 方法 仅 使 用 7 次 测试 , 每 次 测试 只 需要 计算 5 个 电子 迭代 步 ， 即 得 到 了 最 佳 
的 运行 并 行 参数 ， 并 将 计算 核心 数 扩 展 到 1280 核心 ， 同 时 保持 高 达 94% 的 并 行 
效率 。 此 外 ， 本 计算 算 例 具有 离子 迭代 过 程 ， 因 此 35 次 电子 迭代 在 全 部 计算 任 
务 中 时 非常 小 的 一 部 分 ， 本 测试 过 程 不 会 使 得 总 花费 机 时 变 高 。 


4.2 算 例 2 优化 结 
表 2 Ni48C2O2 体系 下 的 运行 参数 优化 结果 
Table2 Optimization results for Ni48C2O2 calculation 


Processes Parameter: Er Loop + Time 
Number KPAR*NPARXNCORE (s) 
200 lx*4*10 = 906 


200 4*2*5 515 


400 4*2* 10 143% 180 


800 8*2*10 102% 88 
800 4*4* 10 85% 106 
800 4*¥*2* 20 86% 105 
1600 8*2* 20 90% 49 
1600 8*4* 10 90% 49 


表 2 展示 了 一 种 过 渡 态 计算 算 例 ， 其 三 个 并 行 参 数 的 乘积 并 不 等 于 总 的 计算 
进程 数 ， 因 为 其 会 生成 5 个 image 同时 进行 计算 ， 所 以 前 两 者 数值 之 间 相 差 5 
倍 。 表 中 第 一 行 数据 为 用 户 的 默认 设置 , 后 续 几 行为 优化 停止 前 的 测试 路 径 及 相 
关 结 果 。 通过 对 该 算 例 的 并 行 参数 优化 , 我 们 可 以 发 现 两 个 特征 : 1) 在 最 终 1600 
核心 的 优化 结果 下 ，NPAR 与 NCORE 分 别 取 值 4 与 10， 这 与 用 户 给 出 的 200 核心 
下 的 参数 设置 是 相同 的 ， 但 是 200 核心 下 的 明显 更 优 参数 应 该 取 值 2 与 5， 体 现 
了 最 佳 并 行 参 数 会 受到 硬件 资源 使 用 量 的 较 大 影响 , 其 数值 在 某 个 硬件 资源 量 下 
取得 最 佳 计 算 性 能 ， 在 换 一 个 人 硬件 资源 使 用 量 下 会 明显 的 偏离 最 佳 性 能 。2) 在 
优化 过 程 中 可 以 常见 到 超 线性 加 速 ， 例 如 表 中 的 143% 数 值 ， 这 通常 是 因为 用 于 
比较 的 前 一 个 计算 配置 不 具有 良好 的 并 行 状态 。 

本 算 例 因为 要 计算 多 个 过 渡 态 ， 通 常 需要 较 多 计算 时 间 ， 本 参数 优化 测试 结 
果 表 明 ， 用户 可 以 通过 使 用 更 多 的 核心 来 加 速 计算 ， 更 快 的 取得 研究 进展 ， 同 时 
不 增加 计算 机 时 费用 。 这 也 帮助 超 算 和 集群 实现 更 高 的 价值 ,避免 其 作为 分 割 的 小 
规模 计算 机 来 使 用 。 


4.3 算 例 3 优化 结 


表 3 C100148Cr16 体系 下 的 运行 参数 优化 结果 
Table2 Optimization results for C100I48Crl6calculation 


Processes Parameter: kr Loop + Time 
Number KPAR*NPARXNCORE (s) 
80 ll* 80*1 1087 
160 lx* 16* 10 127 
320 1 x* 16 * 20 113% 56 
1600 5* 16 * 20 97% 12 
800 1 * 40 * 20 73% 34 
640 1 * 16 * 40 82% 34 
1600 5* 16 * 20 97% 12 


表 3 展示 了 一 种 较 多 原子 数 较 少 K 点 个 数 〈5 个 约 化 后 K 点 ) 的 计算 算 例 ， 
表 中 第 一 行 数据 为 用 户 的 默认 设置 , 后 续 几 行为 优化 停止 前 的 测试 路 径 及 相关 结 
果 。 因 为 K 点 数 较 少 ， 导 致 KPAR 参数 空间 较 小 ， 因 此 仅 用 了 5 次 测试 ， 即 获得 
了 优化 结果 ， 本 次 优化 的 效果 显著 ,为 用 户 原始 计算 提供 了 接近 百倍 的 加 速 。 因 
为 本 算 例 也 是 具备 离子 迭代 过 程 , 作业 总 时 间 会 较 长 , 因此 这 个 加 速配 置 具 有 非 
常 好 的 应 用 机 会 。 


5 与 作业 调度 系统 的 结合 方法 与 应 用 效果 
本 节 中 ,我 们 提出 一 种 将 前 述 并 行 参数 优化 方法 集成 到 作业 调度 系统 中 的 流 
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程 ， 如 图 3 所 示 ， 用 户 只 需要 提交 作业 并 等 待 优化 结果 即 可 。 


用 户 提交 作业 上 又 。 ee 


成 功 结果 推送 给 用 户 


检测 是 否 需要 优化 否 记录 成 功 与 失败 的 
(RESTART? ... ) 测试 结 


测试 作业 被 分 配 执 行 变更 运行 时 并 行 参 数 
基于 封装 的 mpirun 获取 最 优 设置 


图 3 作业 调度 系统 与 并 行 参 数 优化 方法 集成 流程 


Figure 3 Combining job Scheduling System with the parameter optimization module 


实践 中 ， 图 3 中 用 于 执行 优化 的 测试 作业 可 被 赋予 可 被 抢断 属性 ， 并 立刻 在 
集群 中 当前 闲置 的 节点 中 运行 ,， 因为 优化 测试 作业 的 运行 时 间 通 常 比较 短暂 ,其 
有 较 大 概率 在 可 能 出 现 的 被 抢断 事件 前 完成 执行 。 因 此 该 类 作业 可 以 在 不 影响 用 
户 其 他 作业 的 前 提 下 工作 ， 并 较 少 集群 节点 的 闲置 时 间 ， 增 加 集群 的 利用 效率 。 
此 外 用 户 接受 成 功 的 优化 结果 后 ,可 以 选择 自动 的 采用 优化 的 并 行 参数 ,也 可 以 
选择 被 通知 并 手动 采纳 。 特 别 是 ， 可 以 通过 为 优化 过 程 增 大 扩展 性 测试 的 规模 限 
制 , 可 以 使 用 户 更 多 的 接收 到 大 规模 计算 的 设置 建议 , 并 通过 自动 更 新 作业 规模 ， 
来 动态 的 调整 小 的 用 户 作 业 为 大 规模 计算 作业 , 充分 实现 大 规模 超 算 集群 设备 的 
建设 初 训 。 

我 们 在 中 国 科 大 超 算 中 心 集群 中 实施 了 图 3 中 所 示 流 程 ， 限 于 集群 规模 ， 并 
未 进行 大 规模 的 扩展 性 优化 , 仅 允 许 在 用 户 原 始 计算 资源 申请 量 的 1. 5 倍 范围 内 
进行 优化 测试 。 测 试 的 结果 如 图 4 中 所 示 ， 我 们 选择 连续 的 1400 个 作业 的 优化 
结果 ,每 100 个 作业 为 一 组 ， 展 示 优 化 后 的 计算 加 速效 果 与 平均 机 时 消耗 。 可 以 
看 到 ， 调 度 系统 的 自动 参数 优化 插件 可 使 VASP 作业 平均 加 速 约 1.6 ”3.2 倍 ， 
同时 使 得 VASP 作业 的 平均 机 时 消耗 减少 15% ”35% 之 间 。 

更 多 的 测试 结果 仍 有 待 统计 研究 ， 我 们 希望 可 以 更 进一步 容许 用 户 不 在 选择 
队列 与 资源 申请 数额 , 通过 作业 调度 系统 来 为 用 户 作 业 自 动 配置 最 佳 的 资源 申请 
数额 ， 这 在 Web Portal 模式 的 超 算 使 用 方法 得 到 广泛 采用 后 ， 可 以 得 到 很 好 的 
实施 。 特 别 是 ， 因 为 采用 约 化 并 行 效率 指标 后 ， 我 们 可 以 通过 调节 该 数值 边界 ， 
控制 计算 速度 与 资源 利用 效率 的 平衡 点 位 置 。 当 将 约 化 并 行 效率 br 的 容许 边界 
调整 为 较 高 值 时 ， 即 为 计算 作业 提供 “效率 优先 、 速 度 次 之 ”的 选项 ; 将 应 的 
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容许 边界 调整 为 较 低 值 时 ， 即 为 计算 作业 提供 “速度 优先 、 效 率 次 之 ”的 选项 ; 
将 所 的 容许 边界 设置 为 中 间 值 时 ， 即 实现 了 一 种 默认 的 均衡 选项 。 
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算 例 集合 (每 集合 100 个 站 神 ) 
图 4 全 自动 作业 优化 效果 


Figure 4 Results of fully automated parameter optimization 


6 总 结 


前 文 描 述 了 在 多 层 结构 的 软 硬 件 计 算 场 景 下 ， 通 过 试 运 行 来 自动 化 的 帮助 用 
户 获 取 最 佳 运行 速度 与 最 佳 扩展 度 的 必要 性 与 可 行 性 。 特别 发 现 , 计算 算 例 的 并 
行 扩展 效率 测试 的 好 坏 ， 显著 依赖 于 并 行 参 数 的 优化 程度 。 针 对 此 目的 ， 本文 提 
出 了 优化 方法 与 判定 标准 , 提出 了 一 种 约 化 并 行 效率 的 指标 ,可 以 兼顾 计算 速度 
与 计算 效率 的 要 求 ， 能 够 很 好 的 帮助 多 数 VASP 作业 在 同等 资源 下 显著 提升 速度 
的 同时 , 在 保证 计算 效率 的 情况 下 大 大 提高 了 计算 的 扩展 度 与 极限 速度 。 通 过 将 
该 优化 方法 跟 作 业 调 度 系统 结合 ， 我 们 展示 了 该 解决 方案 的 应 用 潜力 。 

本 文 提出 的 优化 方法 可 以 帮助 用 户 使 用 更 多 的 核心 来 加 速 计 算 ， 更 快 的 取得 
研究 进展 ， 同 时 不 增加 计算 机 时 费用 。 这 更 帮助 超 算 集群 实现 更 高 的 自身 价值 ， 
避免 其 被 分 割 为 小 规模 计算 机 来 使 用 ， 这 也 本 是 大 规模 超 算 集群 建设 的 初衷。 

此 外 。 和 希望 本 方法 可 以 为 应 用 的 Web Portal 化 提供 重要 的 一 环 ， 使 用 户 无 
需 关 心 并 行 参数 与 计算 资源 数 , 即 可 在 计算 速度 优先 与 资源 利用 效率 优先 之 间 的 
任 一 平衡 位 置 进 行 配置 计算 。 
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